A number of competing hypotheses have been proposed to explain why small-batch Stochastic Gradient Descent (SGD)leads to improved generalization over the full-batch regime, with recent work crediting the implicit regularization of various quantities throughout training. However, to date, empirical evidence assessing the explanatory power of these hypotheses is lacking. In this paper, we conduct an extensive empirical evaluation, focusing on the ability of various theorized mechanisms to close the small-to-large batch generalization gap. Additionally, we characterize how the quantities that SGD has been claimed to (implicitly) regularize change over the course of training. By using micro-batches, i.e. disjoint smaller subsets of each mini-batch, we empirically show that explicitly penalizing the gradient norm or the Fisher Information Matrix trace, averaged over micro-batches, in the large-batch regime recovers small-batch SGD generalization, whereas Jacobian-based regularizations fail to do so. This generalization performance is shown to often be correlated with how well the regularized model's gradient norms resemble those of small-batch SGD. We additionally show that this behavior breaks down as the micro-batch size approaches the batch size. Finally, we note that in this line of inquiry, positive experimental findings on CIFAR10 are often reversed on other datasets like CIFAR100, highlighting the need to test hypotheses on a wider collection of datasets.
translated by 谷歌翻译
对于大多数自然语言处理任务,主要的实践是使用较小的下游数据集对大型预验证变压器模型(例如BERT)。尽管这种方法取得了成功,但尚不清楚这些收益在多大程度上归因于用于预处理而不是训练预处理的目标本身所采用的大量背景语料库。本文介绍了一项大规模的自我预测研究,其中相同的(下游)训练数据都用于预训练和填充。在解决Electra和Roberta型号以及10个不同下游数据集的实验中,我们观察到在BookWiki语料库上进行自我预测的竞争对手标准预告片(尽管使用了$ 10 \ times $ $ -500 \ times $ -500 \ times $少的数据),在7美元上以7美元的价格优于$ 7 $和$ 5 $数据集。令人惊讶的是,这些特定于任务的预预性模型通常在其他任务(包括胶水基准)上表现良好。我们的结果表明,在许多情况下,可归因于预处理的绩效收益主要是由预处理目标本身驱动的,并不总是归因于大规模数据集的合并。考虑到网络规模预处理数据中对知识产权和进攻内容的担忧,这些发现尤其重要。
translated by 谷歌翻译
哪种结构可以使学习者能够从未标记的数据中发现类?传统方法取决于功能空间的相似性和对数据的英勇假设。在本文中,我们在潜在标签换档(LLS)下介绍了无监督的学习,我们可以从多个域中访问未标记的数据,以便标签边缘$ p_d(y)$可以跨域变化,但是类有条件的$ p(\ mathbf) {x} | y)$不。这项工作实例化了识别类别的新原则:将分组分组的元素。对于有限输入空间,我们在LLS和主题建模之间建立了同构:输入对应于单词,域,文档和标签与主题。解决连续数据时,我们证明,当每个标签的支持包含一个可分离区域时,类似于锚词,Oracle访问$ P(d | \ Mathbf {x})$足以识别$ p_d(y)$和$ p_d( y | \ mathbf {x})$ for排列。因此,我们引入了一种实用算法,该算法利用域 - 歧义模型如下:(i)通过域歧视器$ p(d | \ mathbf {x})推动示例; (ii)通过$ p(d | \ mathbf {x})$ space中的聚类示例来离散数据; (iii)对离散数据执行非负矩阵分解; (iv)将回收的$ P(y | d)$与鉴别器输出$ p(d | \ mathbf {x})$结合在一起计算$ p_d(y | x)\; \ forall d $。通过半合成实验,我们表明我们的算法可以利用域信息来改善无监督的分类方法。当功能空间相似性并不表示真实分组时,我们揭示了标准无监督分类方法的故障模式,并从经验上证明我们的方法可以更好地处理这种情况。我们的结果建立了分销转移与主题建模之间的密切联系,为将来的工作开辟了有希望的界限。
translated by 谷歌翻译
我们介绍了在打开集标签偏移(OSL)下进行域适应的问题,该标签分布可以任意更改,并且在部署期间可能会到达新类,但是类别条件分布p(x | y)是域不变的。 OSLS在标签转移和未标记(PU)学习下适应域的域名。学习者的目标是两个方面:(a)估计目标标签分布,包括新颖的班级; (b)学习目标分类器。首先,我们建立了确定这些数量的必要条件。其次,在标签转移和PU学习方面的进步中,我们提出了针对利用黑盒预测变量的两项任务的实用方法。与典型的开放式域适应(OSDA)问题不同,该问题往往不适合且仅适合启发式方法,OSLS提供了一个适合原则性机械的良好问题。关于视觉,语言和医学数据集的众多半合成基准测试的实验表明,我们的方法始终超过OSDA基线,实现目标域精度的10--25%提高。最后,我们分析了提出的方法,建立了与真正的标签边缘和收敛到高斯设置中线性模型的最佳分类器的有限样本收敛性。代码可在https://github.com/acmi-lab/open-set-label-shift上找到。
translated by 谷歌翻译
深度监督或称为“中间监督”或“辅助监督”是在神经网络的隐藏层上增加监督。最近,该技术越来越多地应用于深层神经网络学习系统中,以用于各种计算机视觉应用。人们达成共识,即深层监督有助于通过减轻梯度消失的问题来改善神经网络的性能,这是深层监督的众多优势之一。此外,在不同的计算机视觉应用程序中,可以以不同的方式应用深度监督。如何最大程度地利用深度监督来改善不同应用程序中的网络性能。在本文中,我们对理论和应用程序中的深入监督进行了全面的深入审查。我们建议对不同深度监督网络进行新的分类,并讨论计算机视觉应用程序中当前深层监督网络的优势和局限性。
translated by 谷歌翻译
在机器学习中,我们传统上评估单个模型的性能,平均在测试输入集合中进行平均。在这项工作中,我们提出了一种新方法:在$ \ textit {单个输入点} $上评估时,我们测量了模型集合的性能。具体来说,我们研究了一个点的$ \ textit {profile {profile} $:模型在测试分布上的平均性能与他们在该点上的角度表现之间的关系。我们发现配置文件可以在分布和分发的模型和数据的结构中产生新的见解。例如,我们从经验上表明,实际数据分布由具有质量不同的点组成。一方面,有“兼容”点,在角度和平均性能之间具有很强的相关性。另一方面,有些点具有弱甚至$ \ textit {nogate} $相关性:提高整体模型精度实际上$ \ textit {hurts} $性能的情况。我们证明,这些实验观察与先前工作中提出的几种简化学习模型的预测不一致。作为一个应用程序,我们使用配置文件来构造一个数据集,我们称为CIFAR-10-NENG:CINIC-10的子集,因此对于标准模型,CIFAR-10-NENG上的准确性为$ \ textit {negalissiper {negalissiperational {negalishatied} CIFAR-10测试。这首先说明了一个完全逆转“准确性”的OOD数据集(Miller,Taori,Raghunathan,Sagawa,Koh,Koh,Shankar,Liang,Carmon和Schmidt 2021)
translated by 谷歌翻译
现实世界机器学习部署的特点是源(训练)和目标(测试)分布之间的不匹配,可能导致性能下降。在这项工作中,我们研究了仅使用标记的源数据和未标记的目标数据来预测目标域精度的方法。我们提出了平均阈值的置信度(A​​TC),一种实用的方法,用于了解模型的置信度的阈值,预测精度作为模型置信度超过该阈值的未标记示例的分数。 ATC优于多种模型架构的先前方法,分发班次类型(例如,由于综合损坏,数据集再现或新颖的群体)和数据集(野外,想象成,品种,CNIST)。在我们的实验中,ATC估计目标性能$ 2 $ 2美元 - 比以前的方法更准确地获得4美元。我们还探讨了问题的理论基础,证明通常,识别精度与识别最佳预测因子一样难以识别,因此,任何方法的功效都依赖于(可能是未列区)假设对移位的性质。最后,在一些玩具分布中分析了我们的方法,我们提供了有关其工作时的见解。
translated by 谷歌翻译
关键点检测在各种应用中起着重要作用。然而,预测诸如人手的小物体的关键点是一个具有挑战性的问题。最近的作品融合了深度卷积神经网络(CNNS)的映射,可通过多级功能集成或多分辨率聚合。尽管取得了一些成功,但功能融合方法增加了CNNS的复杂性和不透明度。为了解决这个问题,我们提出了一个名为Multi-Scale Deep Smotional网络(P-MSDSNet)的新型CNN模型,该网络在不同尺度上学习具有深度监控的特征映射,以产生从层到层的自适应特征传播的注意映射。 P-MSDSNET具有多级架构,可扩展,同时其具有空间注意力的深度监控可提高每个阶段的特征学习的透明度。我们显示P-MSDSNet优于基准数据集的最先进的方法,同时需要更少数量的参数。我们还显示P-MSDSNet的应用来量化神经科学研究中的手指攻丝手动运动。
translated by 谷歌翻译
只给出了积极的例子和未标记的例子(来自正面和负数),我们可能希望估计准确的正面与负分类器。正式地,该任务分为两个子任务:(i)混合比例估计(MPE) - 确定未标记数据中的正例的分数; (ii)PU-Learning - 鉴于这样的估计,学习所需的正面与负分类器。不幸的是,两个问题的古典方法在高维设置中分解。与此同时,最近提出的启发式缺乏理论一致性,并效力依赖于近双车调谐。在本文中,我们提出了两种简单的技术:最好的箱估计(BBE)(用于MPE);而有条件的价值忽略风险(CVIR),对PU学习的简单目标。这两种方法都主导了先前的方法,并且对于BBE,我们建立正式保证,每当我们可以培训模型来干净地分离出一小部分积极示例的担保。我们的最终算法(TED)$ ^ N $,两种程序之间交替,显着改善了我们的混合比例估计器和分类器
translated by 谷歌翻译
为了评估泛化,机器学习科学家通常(i)涉及泛化差距,然后(训练后)插入经验风险,以获得真正风险的界限;或(ii)验证持续数据验证。但是,(i)通常会给过度分开的模型产生脏污保证。此外,(ii)缩小训练集及其保证侵蚀,每次重复抵押邮件集。在本文中,我们介绍了一种利用未标记数据来产生泛化界限的方法。通过随机标记的新鲜例子增强我们(标签)培训,我们以标准方式训练。每当分类器在清洁数据上实现低误差和嘈杂数据的高误差时,我们的绑定都会为真正风险提供紧密的上限。我们证明我们的界限有效期为0-1经验风险最小化,并通过梯度下降训练的线性分类器。由于早期学习现象,我们的方法与深度学习结合尤其有用,由此网络在嘈杂的标签前拟合真正的标签,但需要一个直观的假设。在经验上,在规范计算机视觉和NLP任务上,我们的绑定提供了不受空广的泛化保证,可密切跟踪实际性能。这项工作为从业者提供了一个选择,即使在未经看跌的数据不可用的情况下也能够认证深网络的泛化,并为随机标签噪声和泛化之间的关系提供理论洞察力。
translated by 谷歌翻译